Q-learning

Q-learning הוא אלגוריתם למידת חיזוק. המטרה של Q-learning היא ללמוד מדיניות, שתגדיר לסוכן איזו פעולה לנקוט בהתאם לנסיבות. האלגוריתם אינו מצריך מודל של הסביבה, והוא יכול לטפל בבעיות עם מעברים סטוכסטיים ותגמול (או ניקוד לפעולה), ללא צורך בהתאמות.

עבור כל תהליך החלטה מרקובי סופי, Q-learning מוצא מדיניות אופטימלית במובן של מקסום הערך הצפוי של התגמול הכולל על כל השלבים הבאים, החל מהמצב הנוכחי.^[1] Q-learning יכול לזהות מדיניות בחירת פעולה אופטימלית עבור תהליך החלטה מרקובי, בהינתן זמן חיפוש אינסופי ומדיניות אקראית חלקית.^[1] "Q" מציין את הפונקציה המחזירה את התגמול, כשהתגמול משמש לחיזוק ומציין את האיכות (quality) של ביצוע הפעולה במצב הנתון.^[2]

^ ¹ ² Melo, Francisco S. "Convergence of Q-learning: a simple proof" (PDF).
^ Matiisen, Tambet (19 בדצמבר 2015). "Demystifying Deep Reinforcement Learning". neuro.cs.ut.ee (באנגלית אמריקאית). Computational Neuroscience Lab. נבדק ב-2018-04-06. {{cite web}}: (עזרה)

[auto-1] ¹ ² Melo, Francisco S. "Convergence of Q-learning: a simple proof" (PDF).

[הערה_מספר_25495495:0-2] Matiisen, Tambet (19 בדצמבר 2015). "Demystifying Deep Reinforcement Learning". neuro.cs.ut.ee (באנגלית אמריקאית). Computational Neuroscience Lab. נבדק ב-2018-04-06. {{cite web}}: (עזרה)

[1]

[2]

Q-learning

From Wikipedia, the free encyclopedia · View on Wikipedia